九问中国大模型掌门人,万字长文详解大模型进度趋势
自 ChatGPT 在去年 11 月底横空出世,大模型的风刮了整一年。
历经了百模大战、Llama 2 开源、GPTs 发布等一系列里程碑事件,将大模型技术推至无可争议的 C 位。基于大模型的研究与讨论,也让我们愈发接近这波技术浪潮的核心。
在 2023 长沙·中国 1024 程序员节上,CSDN 力邀中国大模型第一梯队的领军人物,组成「九问中国大模型掌门人」重磅对话。从模型技术、算力基建、开源开放、商业化四个方向,罗列了数十个核心问题,并与顾问专家讨论协商,最终选择了其中九个。
问
基础大模型发展的技术突破口是什么?
问
Transformer 未来将如何演进?
问
如何让大模型远离「幻觉」,安全可控?
问
自研的 AI 算力基建与服务如何发展?
问
大模型的开源生态如何发展?
问
自研大模型如何取得领先地位?
问
如何看待互联网大厂与创业公司之间大模型的竞争?
问
大模型如何在行业落地,实现商业化?
问
套壳 ChatGPT 的产品有价值么,大模型 C 端应用,机会在哪里?
对话过程中,六位掌门人也针对每个问题,进行了深度思考和坦诚表达,就目前大模型技术发展中的关键环节和核心矛盾,展开深入精彩的讨论,在此 CSDN 特别将对话实录整理分享给所有开发者朋友,希望能够对大家有所裨益。
直播回放地址:https://live.csdn.net/v/340534
主持人:王咏刚
SeedV 实验室创始人兼 CEO
创新工场 AI 工程院执行院长
张家兴
封神榜大模型
IDEA 研究院
张鹏
GLM 大模型
智谱 AI
李大海
CPM 大模型
面壁智能
Richard
百川大模型
百川智能
王斌
MiLM 大模型
小米集团
康战辉
腾讯混元大模型
腾讯
最近二十年里,在产业界、技术界最大的技术革命就是从 ChatGPT 开始的大语言模型革命。
今天相聚在长沙 1024 程序员节,和国内重要的大模型掌门人或技术负责人,一起坐在舞台上非常荣幸。我们彼此虽然可能是竞争对手,但在大模型生态下,也是一起建设的朋友。今天的话题非常直截了当,围绕着大模型建设的技术、架构、商业等问题,设计了九个全行业特别关心的问题。
“跨模态能力是真正迈向
人类大脑认知能力的关键”
张鹏(GLM 大模型):
在回答突破的问题前,首先要定义大模型的目标是什么?可以用两个字来整体概括:认知。
大模型最强的就是认知能力,比过去所有的模型能力都要强,强于上一代判别式模型的能力。
跨模态的能力对于突破模型认知上限很关键,因为语言是抽象的、人造的,自然界不存在的东西。也正因如此,语言包含了人类能够表达的所有类型的数据、知识,所以建模语言就是非常自然和快速的一种方式。但是自然界还存在视觉、听觉等感官,不容易建模。如何把这些跨模态的能力综合打通,是真正迈向人类大脑认知能力的关键。
“发展大模型需要逆向思维,
让大模型小型化”
王斌(MiLM 大模型):
首先,大模型会越来越大,比如 GPT-4 可能是上万亿参数,未来数量会更大。但大模型真正要使用或发展,还得有逆向思维,就是将大模型小型化。
谈到这一点,其实跟小米的主要场景有关,有海量的设备,所以我们提过「轻量化」和「本地化」部署。让模型在保持相当能力的同时,能够变小、降低使用成本,让更多用户得以使用。
从这个方向就得解决很多问题,包括算法层、架构层,和硬件本身的实际情况,是一项综合问题。我们在努力推进这项工作,希望能让更多的老百姓体会到大模型真正的能力。
“ICL(In-Context Learning)
或许是机器学习的突破方向”
张家兴(封神榜大模型体系):
从另一个角度,讲讲大模型在落地链条中的重要一环:对齐技术。
在座各位包括封神榜大模型体系,大多都发布了通用的预训练大模型,但到具体场景中,仍需继续微调。从更宏观的角度看待微调,就是对齐技术。基础大模型能达到高中或大学毕业生的知识水平,但需要让模型持续学习,才能让其在实际场景中掌握具体技能,这就是我定义的对齐技术。目前大家已经在推进很多模型对齐技术的工作,包括通过 RLHF 这些方法,如果这部分技术想寻求突破,有两点很重要。一点是对齐技术,在未来能否不依赖于梯度下降。
目前在传统机器学习框架下研究了很多年,基于梯度下降来实现自动化训练系统。但由于梯度下降带来很大的不稳定性,且极难实现自动化。现在 ICL(In-Context Learning)是非梯度下降探索的一个方向。从机器学习技术诞生到现在的几十年,所有学习都是基于梯度下降。然而,人脑中并没有这样的机制,人类并不是靠梯度下降的逻辑来学的,至少说不完全依赖梯度下降机制。
梯度下降是机器学习多年来依赖的基础技术,但很多原罪也来源于此,希望能够得到突破。
第二点是,能否实现一种彻底无人、没有老师提示的学习方式。这是一个更大的设想,能否让多个模型完全形成闭环,互相教导对方。当多个模型达成自洽时,所形成的知识和技能就是我们想要的。
现在,第一点技术突破,已经形成雏形,第二点无人学习的方式,会更科幻一点。
人类社会就是这样,并没有上帝教授人类知识,但人类已经形成闭环和自洽,到达目前的知识水平,大模型是否能具备这样的技术。
“用小模型做出大参数模型效果
可能是未来的探索方向”
李大海(CPM 大模型):
同意家兴老师让模型实现无人学习的观点,该方向的探索确实在向前发展,但没有那么快实现,当下比较可实现的是用 Agent 的方式推进。
人类本身具有快和慢的思维,将问题对应到模型中。现在模型通过问答的方式,用文字组成回答。尽管逻辑上一致,但实际上在答案生成过程中,通过 COT(Chain of Thoughts)等方式,让回答质量变得更高。
那么基于 Agent 技术,可以将规划做得更好,再将各种技术应用起来,使得能将场景中任务得到更好的拆解和分步交付。打通 Agent 环节需要大模型自身结合外部框架一起实现,大模型本身也需要有相应的数据来训练,让他们能够有效地了解 Agent 在场景中的具体行为。
所以在未来一两年内,用较小的模型能够做到大参数模型的效果,是一个可以探索和突破的方向。
“各类模型的架构走向统一,
已经在学界展开了探索”
康战辉(腾讯混元大模型):
前面几位的总结已经很到位了。目前行业认为大模型还不够成熟,主要聚焦两个问题。
第一,现在大模型更适合任务难度较低、容错率较高的场景。例如闲聊,闲聊的场景没有预期,能聊天就好。但如果涉及到专业翻译、客服或做一些个人助理这类复杂任务,目前大模型还不能满足需要,本质上还是大模型本身存在幻觉。
第二,刚才没有提到现阶段技术对复杂程度的跟随能力。人与人之间的交互,不可能像人机一样,每句话只有一个指令。很多时候是复杂的指令,包括多模态。人类的交互也不仅仅通过语言,这也是个挑战。
所以架构上的突破,学界已经进行了许多探索。未来应该两个架构走向统一,模型通过一个架构实现能听会说、能读会写的功能和服务。
“解决模型幻觉问题和
上下文窗口限制”
Richard(百川大模型):
从两个视角来看,首先是站在 OpenAI 的角度,从人类目前大模型技术最高水平看下一步的突破。
Ilya(Ilya Sutskever,OpenAI 首席科学家)说如果能做到预测 Next Token,就离通用人工智能不远了。OpenAI 正在做的 GPT-5,号称把十万台 GPU 连在一起,预测 Next Frame(下一帧),如果得以实现,大模型的技术会进一步突破。
其次是站在近期国内模型应用落地的视角,面临两个必须要突破的点:
一是如何解决大模型的幻觉问题。大模型在行业落地过程中,准确率是最受关注的问题。如何利用好大模型能够压缩人类知识的优势,同时由于人类知识是持续变化的,需要与搜索引擎进行更深入的联合,让模型技术在原生状态下更好解决幻觉,是未来行业落地中亟需突破的点。
二是可以把大模型看作人或计算机,它有内存(短期记忆)和硬盘(长期记忆),对应到模型中就是上下文窗口,Claude 目前突破了 100K,我们也推出了超过 100K 的上下文长窗口模型。
二问:Transformer 未来将如何演进?
王咏刚(主持人):今天的大模型都脱胎于名为 Transformer 的核心算法。近年,Yann LeCun 等学者也经常提出非常新颖且独特的科研方向,许多中国和美国等世界各地的科研工作者也在尝试优化,甚至彻底改变 Transformer 架构。
那么未来,架构该如何发展?
“新的模型结构,需要解决
Transformer 无法解决的问题”
在大模型领域里需要区分两个方向,一是设计模型结构,Transformer 架构自 2017 年提出,到现在已经有六年了,但还是如日中天,也是很罕见的。
另一条路是训练层面,模型如何持续学习,也是刚才提到的对齐技术,是在训练层面的科研方向。
那么 Transformer 的结构已经有 6 年历史了,如果它被取代,一定是 Transformer 模型结构遇到了无法解决的问题,但又极其紧迫。就像当年Transformer 提出来时,是为了解决 LSTM 太慢的问题。
Transformer 已经证明了能够支撑足够大参数量的模型,那还有什么问题呢?比如幻觉问题,是否 Transformer 的模型结构就是容易产生幻觉?
无论 100k 的上下文窗口,还是 1 million 的上下文窗口,都是 Working memory,而不是 Long-term memory。
下一代模型结构,的确现在不知道它会是什么样子。但是,它的出现一定能解决现在 Transformer 结构无论如何解决不了的问题。
在这方面的探索中,我们和大海的方向是相同的,可能采用 Agent 的方式来解决问题,但如果模型结构能够解决,那将是最好的方案。
“新的模型结构会像大模型,
在某天突然出现,
颠覆大家的想象。”
王斌(MiLM 大模型):
我离开学术界已经 5 年,现在领导团队致力于将研发的 AI 技术应用到实际场景,我们在使用 Transformer 时也遇到刚刚家兴提到的问题。
现有学术界大部分的工作主要还是围绕如何提高 Transformer 的效率展开。比如,如何简化注意力机制的计算,如何降低 FNN 的维数,如何对参数矩阵分解来用更小的矩阵代替大矩阵。
但真正要从架构上对 Transformer 进行大的改进,确实需要勇气。因为当下硬件的结构都是围绕如何优化 Transformer 的方式设计。看上去,未来较长时间里,Transformer 也都会是 AI 芯片设计中的公共结构,基于此再进行优化和设计。所以突破 Transformer 架构的挑战非常大。
但是大模型的出现,在一夜之间颠覆了大家的想象,也证明了 Nothing is impossible。因此,可能也会在某一天突然间出现一个新的架构,替代掉原来的 Transformer 架构。
“新的结构可能已经出现,
但受限于客观条件,
未被证明其价值。”
张鹏(GLM 大模型):
我想换个角度来看这件事。以 Transformer 为例,现在大家的注意力都集中在这件事上。深度学习之父 Geoffrey Hinton 最根本的算法 bp(反向传播),在八几年就已经提出,但在之后的几十年里,并没有引起太大影响。甚至在学术界受限于一些客观条件,也没有太多人使用。
对当时来说,反向传播算法计算量过大且复杂,硬件无法支持过大的计算量。Transformer 也是如此,为什么在 2017 年提出,到近年才大行其道?这是因为 AI 算力芯片的能力得到了十倍甚至百倍的增长,足以支撑大规模计算量。
所以,下一代的算法结构可能已经在我们身边,只是受限于客观条件,无法实现跑通新的算法或者扩大规模,来证明新结构的价值。
在科技情报分析中,如发展趋势演变分析,整个科技趋势的演进都是连续且可导的,基本没有突变或迁跃的情况。所以,当我们谈论 Transformer 的未来发展方向时不要忘记踏实走好脚下的路。
另外,Transformer 结构代替了原来的 CNN、RNN 这些比较简单的神经网络结构。近期有团队基于 RNN 做了改造,开源了新的算法模型叫 RWKV。也引起了业内很多人的关注,他们尝试优化了 RNN 很难并行化的问题。
改动并不特别大,但确实取得了非常好的效果。所有的技术演进可能并非在天上,而是脚下,需要坚持走下去,总会发现和改造问题。
“外挂知识库、扩大知识量,
能改善大模型幻觉问题”
李大海(CPM大模型):
幻觉问题确实是当前影响应用落地的一个绊脚石。
从实践角度来看,目前比较好的方法是 RAG(外挂知识库)来引入外部知识,改善幻觉问题。另一个例子是,如果让模型学习足够多的知识,对于学过的知识,出现幻觉的概率会变小。
然而,从目前大模型整体基础设计来看,是通过压缩知识产生的通用智能。压缩就会产生一定概率的错误,也就是幻觉。
因此,可以通过刚刚提到外挂知识库和学习更多知识的方法,尽可能减少幻觉,但完全避免幻觉目前还不太可能。
另一方面,我们应该关注更具探索性的方向,例如类似于 Agent 技术。在这个方向上,我们可以看到收益,但目前收益仍然相对有限。
如果客户让我在幻觉率上作保证的话,大模型在实际运用上,未必一定是纯粹大模型形态的落地产品。用大模型技术与其他技术结合在一起并不令丢人。在当前阶段,应该鼓励将大模型视为变量,而非将其视为核心,更加因地制宜地使用大模型技术。
“结合搜索引擎,
尝试解决大模型幻觉问题”
Richard(百川大模型):
谈解决方案之前,需要探讨为什么大模型会出现幻觉,以及幻觉是不是一定不好。我们可以先抛出两个观点,然后探讨如何解决幻觉问题。
首先,现在大模型的建模方式是 Next Token 的 Prediction(下一个词预测),因此它必须说话。
第二个问题是,大模型现在尽力压缩更多的知识,但一定是有限的。这包括也引入了知识具有时效性的问题,如果今天出现了一个新的知识,之前肯定没有训练过,或者之前漏了某些知识导致模型效果不好,这就是幻觉产生的一个重要原因。也就是大模型的知识并不能包含所有的知识,而且还不支持高频更新。
更本质的幻觉产生的原因是:不自知。如果大模型知道自己不知道,就不会胡说八道了。
从这几个角度出发,我再讨论幻觉的解决方案。谈到大模型的知识容量的问题,可以类比一下人,人类已经很聪明了,但没有一个人能聪明到掌握所有知识,人也是通过查资料来扩大知识容量。
因此,在百川看来,解决「幻觉问题」非常重要的路径是与搜索引擎结合。搜索引擎作为网罗天下最大的数据和知识的工具,它能够与大模型深度结合。这种深度结合并非像 New Bing 这样先收集结果,然后再进行概括展现。我们也正在期待和探索真正能融入模型内部的方法。
在模型训练时,例如 RETRO(Retrieval-Enhanced Transformer,自回归语言模型)方案,在训练阶段就可以实现优化,跳过了 RAG(外挂知识库)这个方案。
第二点,我们一直在强调价值对齐,但某种程度上价值对齐也是大模型幻觉的根源。打个比方,我原本只学习了小学和初中的知识,但在价值对齐环节时,引入了高中的题目,导致小学和初中知识都出现错误。因此,我们在大模型方面另一个重要的投入就是搜索增强。Ilya(Ilya Sutskever,OpenAI 首席科学家)也提到了这个问题。我们希望通过搜索增强技术,尽量让模型知道自己不知道。
最好的情况是模型知道自己懂,然后输出正确答案,最差的情况是模型不懂且胡说八道。中间的关键,是让模型知道自己不知道。GPT-3.5 到 GPT-4 非常重要的进化,就是 GPT-4 的幻觉输出大幅度降低。当你询问他们一个复杂的问题时,GPT-4 会回答它不懂。
因此我们也会投入资源,解决幻觉方面的两个最重要部分。
补充一点,今天我们谈论的是闻幻觉而色变。大模型的幻觉可以看作是优势,因为它能够胡说八道或创造,所以具备创造能力。大模型也被称为想象力引擎。如果让大模型编一个故事,可能编得比人还好,而让大模型写一首藏头诗,可能写得比人还好。
因此,我们应该从两个方面看待幻觉。今天我们正在讨论严肃场景的知识性输出,就需要尽量减少幻觉的出现。然而,在创意创作的场景中,我们更需要幻觉带来的想象力。
“在某些场景里,
大模型的幻觉可能造成,
比想象中更严重的后果”
王斌(MiLM 大模型):
幻觉这个问题确实存在,因为我们一边做大模型,一边结合小米产品上的具体场景。双方互相了解,知道很多需求和场景,然后根据需求反推大模型的建设,能经历完整的迭代过程,幻觉实际上很可怕。
小米现有的客服系统也是我们团队负责,刚开始时,大家都认为通过大模型应该能大幅度提高客服系统。但当我们尝试时,发现它太可怕了。比如消费者在客服系统询问产品价格,如果大模型报价回答「仅卖 9 块 9,交个朋友」,那我们就完了。
因此,在真实场景当中,大模型幻觉带来的后果实际上比我们想象的要严重很多。
正如 Richard 提到的,我们可以从大模型的原理角度考虑幻觉的问题。我从实际操作的工程化和产品角度,对模型输出的结果进行分层分级。当然,幻觉问题和安全可控并不完全是同一个问题,总体而言,我们会对用户的输入和系统的输出进行分类分级。
有些输出结果是最高级别,有些基于具体场景,有具体的内容分级方式。因此,我们对于模型幻觉的整体治理方案是对输出结果分类、分级、及时监控和反馈。通过技术及人工手段来保证对用户最好,所以我们更多地关注产品方面的综合治理手段。
四问:中国自研的 AI 算力基建与服务如何发展?
“AI 基础设施的成本,
在各个环节都在持续降低”
康战辉(腾讯混元大模型):
国内厂商的算力紧张,这可能是普遍的问题,在年中全球范围内都很紧张,硅谷很多公司都拿不到货。
当然依托腾讯云,我们在腾讯云数字生态大会上发布了自己的千亿参数模型。
目前大模型参数规模普遍很大,我们可能有几千P的数据需要清洗,多达几万亿的 Token 规模,的确非常消耗算力,所以算力是模型训练阶段非常重要的基础设施。
很多企业想要训练、精调、推理大模型,当前来看,算力成本都是个大问题。但我认为不用担心,整个 AI 基础设施中,除了算力本身在演进外,训练和推理过程都在持续优化。
今年以来,我们自研的训练推理服务,成本上也大幅下降,所以技术上是可以优化算力成本的。
腾讯对专用客户提供集群服务,对于算力需求比较弹性的客户,提供弹性卡资源,无论是成本还是总效率匹配方式,分配效率都更高。
“国产 AI 算力还有很多问题,
但芯片自研是必须的。”
张鹏(GLM 大模型):
智谱始终坚持包括算法在内的技术自研,但也发现算力确实是重要的基础资源,甚至成为了瓶颈。因此,我们开始寻求与国产芯片厂商合作。
我们的 AI 算力确实存在许多问题,但芯片自研是必经之路,应对复杂多变局势的最终解决方法还是需要自研。
首先是芯片制造工艺的问题,我们与芯片厂商有很深的沟通,推出了国产大模型和国产芯片的适配计划。通过适配情况来看,国内外的芯片适配设计上,没有太大差距,但在具体制造工艺和应用生态方面差距比较大。
其次是生态问题。英伟达的芯片为何让全球开发者趋之若鹜?原因在于它拥有一个良好的开发生态,使得大家能够轻松且高性能地使用它的芯片。现在许多国产芯片厂商,需要花费大量精力来做软件生态的适配。
第三件的问题目前是向好的,因为我们善于集中资源办大事。
例如,中国拥有最大规模的超算体系,TOP500 的超算集群中有很多是中国的,也有一群有识之士在组织这方面的前沿研究,如算力网络。高文院士在推进这项工作。可以将分散的算力资源互联,解决更大的问题,更有效地利用。
我相信从这几个方面来看,自研的 AI 算力基础建设仍然具有很广阔的空间。
我们也正在推动与政府、技术厂商以及与芯片厂商共同讨论集中式方案,例如,在某个固定地方,组织大家一起进行 m 到 n 的适配过程,以保证知识共享,并更快地加速适配过程,是非常必要的过程。
五问:中国大模型的开源生态如何发展?
王咏刚(主持人):无论选择开源还是闭源,我们都是开源生态的绝对受益者,要感谢开源生态。然而,这么多年来从开源生态中赚钱是相对困难的问题,请几位嘉宾谈谈我们对开源生态建设的看法。
“我们坚持开源和自研,
也因为 Llama 2
对非英语环境限制商用,
存在很大的法律风险”
Richard(百川大模型):
今年六月左右,也就是百川成立两个多月时,我们推出了第一代开源模型。当时在思考中国大模型的开源生态,到底应该如何才能对开发者更好。
最后,我们找到了几个关键点:第一点是真开源。以往的开源模型,可能是开放做学术研究的,无法商用。虽然有开发者也在尝试商用,但中间存在很大风险。例如 Llama 2 虽然在开源时强调可商用,但在条款中,它也规定不能使用在非英文环境下。
而百川践行的是真开源。无论是 7B 还是 13B,都是开源且免费商用的,能真正让社区蓬勃发展。
第二点是自研,中国大模型的开源需要走向自研。百川在成立之初就希望从头开始训练大模型。为什么要强调自研两个字,一是条款中对非英文环境的限制。二是海外大模型的原生中文能力不佳,中国的大模型对中文理解能力一定是更强的。因此,我们从头开始训练,对中文语料进行更好的理解,同时也会输入掌握英文知识。
接下来谈谈对未来的畅想。百川更期待基于现在的大模型生态,在中国真正实现持续开源和自研。同时,我期待未来会有许多大模型走向 Agent 应用。实际上大模型的最终落地需要在应用场景中实现,除了 Model as a service(MaaS,模型即服务),也需要 Agent as a service。未来的开源生态应该在外部增加更多插件,以便让开发者真正落地到应用场景中。
百川 2 在开源时,也将预训练底座中约 200 步左右的 Checkpoint 全部开源,同时撰写了详尽的中英文技术文档。我们期待与中国众多线上线下富有智慧的程序员们,共同努力,真正做好中国大模型的开源生态。
“如果能开源训练过程,
会对开发者们帮助很大”
张家兴(封神榜大模型体系):
首先,封神榜开源历史也很久,已经两年了。实际上,在这次 ChatGPT 大模型热潮之前,大模型处于百花齐放的状态,有不同的任务和模型结构。封神榜团队一直致力于科研,探索前沿技术领域。尤其是在中文背景下。这本身就是一项研究性工作,科研和开源这两件事情关联性很强,天然适合开源。
关于开源代码和开源模型,它们之间存在一定区别。
开源代码是公海理念,大家都投入贡献,开源项目的发起方会得到很多收益。
但是开源模型与开源代码不同,如果修改了某个参数,模型性能也有所不同。开源模型后,就存在继续训练的可能性,如果有人能继续训练,那么模型的谱系将变得非常大,它会形成一棵树的结构。
Llama 2 推出后,很多团队基于此继续训练。但是在目前中文大模型方面的表现还没那么好,这说明我们的中文生态还不够好。
从另一个角度来说,我们也希望大家都能真开源,比如更多的开源训练代码、训练数据,能真正帮助开发者们继续训练和微调。
当然实现起来并不容易。在座各位可能都不一定有勇气说,我可以开源整个训练过程。
“中国大模型需发挥中文优势,
也保持英文水平
以拥抱全球化开源”
康战辉(腾讯混元大模型):
腾讯一直非常积极拥抱开源,包括大数据、前端框架以及学术模型。当然,目前我们的混元大模型尚未开源,一个核心原因是混元的规模较大,千亿级模型相对比较难开源。我们可能会持续打磨,在合适的阶段,结合公司战略做一些布局。
然后谈谈开源如何发展。我认为从目前全球开源来看,开源生态最好是 Llama 系列。但是 Llama 的中文能力还不够,所以我们中国大模型需要发挥中文优势,但英文能力确实需要保持。首先,因为大模型成功的一个关键因素是多元化,如果仅靠中文是无法做出高质量大模型的,因为大量优质知识主要来自以英文为主导的外文语言。
第二,我认为我们可以发挥国内应用场景丰富的优势,在训练通用大模型时,可以让模型兼顾通用及行业能力。
第三点,希望我们在技术领域有所追求。美国的斯坦福有 HELM 评测,伯克利有 LMSYS Org。我们也应该构建中国大模型的 Benchmark(基准),这个非常重要。
保持英文能力,有利于提升全球化水平,让更多海外开发者更早加入我们自己的模型生态,适配成本最低。
现在很多开发者都是基于 Llama 生态继续开发,各种技术都只能重新迁移和实现到我们的模型生态里。如果一开始能以非常开放的方式走向全球,这将加速我们开源生态的发展。
六问:中国自研大模型如何取得领先地位?
“能否对新技术
保持长期投入的决心,
是认知天花板决定的。”
张鹏(GLM 大模型):
我从务虚和务实的两个角度来回答这个问题。首先,通过分析我们现在为什么落后,就能了解我们需要做什么。
2015 年 OpenAI 成立,2017 年研发 GPT 系列,2018 年推出 GPT-1 版本。回忆同时期,我们国内的 AI 研究在做什么?所以从那时起,已经产生了差距。
在三年前 IIya 等人就提出他们的研究目标是 AGI(通用人工智能),但并不考虑将这个产品做出来之后,如何赚钱,所以我们是存在认知差异。需要重新审视我们的目标,以及我们对大模型的认知边界到底在哪里。
如果仅仅把大模型技术当做一个技术浪潮,参考过去几波技术浪潮中,总有巅峰和回落的规律,会有下一个技术浪潮,也影响了各方长期投入的决心,这点可以参考领先者对于技术浪潮和长期投入的思考与行动,这是从务虚的角度谈差距。
其次谈谈务实的角度,需要思考如何实现自主创新。这也是智谱开始训练模型时,并未简单地照搬 GPT-2 的论文,而是在算法层面就在思考如何自主创新。
我们同时也在思考为什么 GPT-1、GPT-2 本来落后于 BERT,但 GPT-3 会比它更好?BERT 也不是一无所长,完全没有值得借鉴的地方?我们也进行了更深层次的思考,以及原始性的创新和思考,这也是实现超越很关键的事情。
第二个务实的角度是想指出国内存在一种风气,尤其在技术圈,习惯舶来主义或拿来主义。使用开源,但是不会贡献回去,没有良性的闭环。开源实际上是一脉相承的,模型开源后,厂商和开发者基于此开发应用、赚钱,但不会贡献代码到社区里提升项目。现在的现实情况是我们国内开源贡献的比例,相对国外还是较低。
所以在开源生态闭环方面,还需要做一些工作,提升大家的贡献意愿。
“用中国擅长的应用创新,驱动
底层技术进行颠覆式创新”
王斌(MiLM 大模型):
我有多年的科研经历以及现在的工业界经历,所以对创新问题的感触比较深入,它的确是一个综合性问题。
首先我想拆解问题的来源:我们为什么要取得领先地位,它的根源是什么?
很多人可能还不清楚为什么要取得领先。当然,随着国际情势的发展,大家就清楚了如果不领先,可能会被卡脖子。
所以,了解本源后可能有两套思路。一个是本身的原因,其实刚才张鹏讲的我非常能理解,就是我们长期以来只想拿来主义,并不想回报。但是这个情况可能会慢慢改变,逐渐建立良性的循环。
第二点是关于大模型本身如何发展?从国情来看,通过应用驱动发展更为合适,因为我们有大基数的应用型人才和广大的想象空间,能够创造很多应用,包括行业应用。
另外,国家层面非常支持应用创新,有很多优越条件。在这种情况下,如果我们诞生更多优秀的应用,一定能倒逼原始创新。尤其最近几年大家都看到了,我们的进步是被逼出来的。
无论是芯片还是操作系统,很多创新的巨大驱动力都来自「卡脖子」。因此,如果国内大模型逐渐建立良好的应用生态,会倒逼行业对大模型技术进行创新,包括原始性、颠覆性的创新。在这种情况下,我们将有机会达到领先的地位。
“尽管 GPT 中文能力很强大,
但与中国大模型对比,
在某些领域表现已经落后”
Richard(百川大模型):
首先保持清醒的认知,需要承认从中国的角度来看,在未来的 3~5 年内,我们都将处在追赶位置。从长远角度来看,我非常赞同张鹏老师的观点,要既务虚又要务实的思考。
这里我想强调的是终局思维和第一性原理。
如果今天是一场长跑,我们需要关注和思考 AGI 的终点到底是什么,才有可能选择出正确的道路并超越。否则,当眼前看到的只是 OpenAI 时,肯定只能追赶。只有将终点看作是 AGI,才有可能实现超越。
在观察终点之后,再结合第一性原理来思考。站在 OpenAI 的立场上,可以套用周星驰的名言:「我不是针对谁,而是在座的各位,都是垃圾。」即使是 Google 的大模型目前为止效果也远远落后,只能依赖 OpenAI,它的第一性原理在于选择当前技术方案时,就是采用「Always for AGI」的逻辑。当他们发现 BERT 搞不定所有任务时,就要找到一个模型技术方案能够搞定所有 NLP 任务,做到 All for one。
下面说务实的思考,中文的数据具有很大的价值。但今天观察 OpenAI 的模型,尽管中文能力也非常强大,但在有些领域跟中国的中文大模型相比,表现得已经不够好。
正如战辉刚才所提到,大模型是多语言的,背后的知识是相通的。因此,应该加大对中文数据的挖掘,包括我们已经沉淀了数千年的历史文化。在实践中,我们发现中文数据对英文指标也有很大提升。
另一个方面是应用数据。正如王斌老师刚才提到的,中国有众多落地场景来形成数据。在这两个方面可能存在实际优势,帮助我们完成超越。
七问:如何看待互联网大厂与创业公司之间大模型的竞争?
“大公司可以大力出奇迹,
创业公司动作更灵活,
也贴近行业需求”
康战辉(腾讯混元大模型):
互联网大厂与创业公司在大模型上,不能完全用竞争来形容。实际上,应该是彼此各自有侧重、各自具有优势,也有互补或者互相促进的作用。
在大厂,我们训练大模型,拥有数据、基础设施和业务场景的资源优势,可以实现大力创造奇迹。
相对于创业公司来说,优势在于动作更快、更灵活,更能贴近很多行业的需求。这就是大家互有侧重的一个方面。
第二点是讨论大厂和创业公司如何实现互相促进。虽然在大厂,但我们也面临着很大压力。坦白说,任何一个产品业务在面对用户选型时,用户都会进行横向测试,看看产品是否能打得过。
这一点是大厂和创业公司可以产生相互促进作用的地方,因为大家本身也是同场竞技。目前,国内大模型市场属于全行业竞争,处于百模大战的阶段。任何大模型都不敢说某项能力只有自己具备,别人没有,只要我们处在充分竞争的状态,就一定会有互相促进的作用。
“创业公司灵活有创新精神,
但并非具有天然的竞争优势,
还是要聚焦目标,敏捷交付”
李大海(CPM 大模型):
首先大厂和创业公司在竞争中,各有优势。
回顾过去每个时代阶段,都有创业公司能在新的领域中成功。这说明大厂仍然存在一些系统性问题,这是创业公司可以弥补和实现超越的。
首先,有句话叫「你的利润就是我的机会。」这句话反映的是大厂有时已经拥有稳定的商业模式,新的创新对传统的商业模式会产生负向的影响,并在内部产生一些作用力。这个作用力是客观的,不是某个人的意志转移。但是创业公司没有这个包袱,所以会更灵活。
但另一方面,任何创业公司要活出来,一方面需要创新、要灵活,另一方面是创业公司能够真正灵敏地感知用户需求,这些都特别重要。并非创业公司天然就有竞争优势。实际上,在创业领域中,一百家创业公司能活出来的,只会是其中的几家,这是非常残酷的事情。
因此,在大模型领域里创业与其他领域创业并无区别,关键在于想清楚自己有什么优势,然后聚焦目标,并敏捷地去做好。
“大公司具有资源优势
创业团队具备制度优势”
张家兴(封神榜大模型体系):
由于我在大厂的时间更多,现在是一个独立的团队负责大模型,因此我双方面还是有一定的感触。
首先,在当下大模型的竞争中,同质化的问题比较严重,无法证明谁比谁强很多。因为技术发展就是这样,一旦有重大突破,技术从最初的稀缺状态很快就会普及,然后整体速度放缓。
大厂和创业公司之间的较量之路还很长,并非今年就能尘埃落定,大家也会持续比较。
我可以更明确地总结一下以上两位的观点。大厂的优势被称为资源优势,如果真的想要发展这个业务,大厂的资源肯定比创业团队多得多。
那么,创业团队或者是独立的小团队的资源优势又是什么?就是制度优势。
刚才大海已经隐晦地表达了这个观点,我可以更明确地说大厂内部的团队在做这件事时,首先需要考虑业务价值。然而,大厂的团队在技术方面也具有一定的垄断性,只要他们能够完成别人无法完成的任务,就没有太大的生存压力。所以导致他们创新的动力不是很大。
但是,创业团队就不一样了,有很大的不确定性。没有客户能只使用他们的方案,不使用别人的。因此,为了生存下去,必须做与他人不同的方案。这就是为什么创业团队能够发展,包括这次 ChatGPT 也是由 OpenAI 这样的独立团队完成的。
然而,大厂的团队不需要通过创新来获得机会,他们只需沿着大家已经达成共识的方向前进就可以了,因此,他们永远无法逃脱这个困境。
八问:大模型如何在行业落地,实现商业化?
“大模型是个很好的锤子,
除了把之前的钉子都砸一遍,
是不是还能砸天花板、砸墙,
找到新的钉子。”
张鹏(GLM 大模型):
这个问题的答案很简单,叫「共建生态,共享红利」。
实际上,这是一个简单的概念,但要真正达到这个概念,确实是相当困难的一件事情。大家需要不断磨合,经历竞争、冲突和最后妥协,逐渐将一片混沌的战场,变成一个井然有序的市场,才能实现大家共赢的商业化目标。
王咏刚(主持人):我必须向张鹏老师询问,因为中国的 B 端落地环境非常残酷。可以用「卷」字来形容,第一毛利率很难持续,当产品稳定到一定程度后,每个客户的毛利率很难持续,第二每个客户的定制化要求相当高,对实施成本的要求非常高。
关于这件事情,有没有一些不同的考虑?
张鹏(GLM 大模型):
我们需要改变思维,正如我们刚才提到的毛利率、利润空间等等就是很卷。但这是站在固定的天花板向下观察。
但请务必注意,我们可以提高天花板,扩大市场份额,这是大家容易忽略的一件事情。
在目前阶段,由于大模型技术性变革所创造的新市场和环境,我们必须具备突破的思维:我们是否能将天花板再往上抬一抬,以及将不断内卷的墙砸一砸?
大模型是一个很好的锤子,除了砸一遍原有的钉子外,我们还能否砸天花板、砸墙,找到新的钉子?因此,这需要大家共同参与生态建设。逻辑可能与以前有所不同,业务逻辑和组织形态也可能有所差异,开发形态也有所不同。
比如我们现在招到的产品和解决方案同事,之前是不写代码的,但现在可以利用大模型能力生成代码、制作一个小 Demo,不需要程序员就能完成,这就是一种全新的商业化生态。
大家可以一起思考,如果扩大空间,我们就不需要再去卷。
“通过标准化半成品,
让模型技术进一步
走向终端用户的场景”
张家兴(封神榜大模型体系):
张鹏总讲得很好,我们将锤子向外砸,将市场砸大,大家的机会就会更多。
我想补充一下如何往里砸,需要依靠创新的商业模式。如果继续参照大模型出现之前的商业模式,恐怕最终大家都还是很卷,所以需要创造出全新的商业模式。
我们目前正在进行探索工作,但并没有达到真正的成果阶段。我们利用模型技术制作了一些“标准化半成品”,虽然还不能直接拿来使用,但从通用大模型,进一步走向落地。只要有人继续接入场景,就能完成这项工作。中间过程需要创新地思考,如何从单一通用大模型出发,最终实现应用落地。
类似开始提到的对齐技术,我们需要多加努力,思考这条链路上到底是什么在阻碍落地。在技术和商业模式方面加以创新,也尽量关注用户场景,用锤子往里砸一砸,进一步离客户更近。
“通过标准化的方式,
与行业伙伴加强合作,
打破天花板”
Richard(百川大模型):
同意家兴的观点,我们需要跳出上一代 AI 落地的方式。今天我们来看一下,OpenAI 预计今年营收大约是 12 亿美金,其中 6 亿美金来自于 API 收入,是非常标准化的产品。国内市场很多时候会走向定制化和私有化,这样的需求还比较普遍。
但我们期待百川能做大模型的内核技术,加上内外部的优势,如通过搜索增强来解决幻觉问题,真正实现可落地。
在落地到千行百业中,我们的理念与开源社区相同,期望与各行业的合作伙伴加强合作,才可能让大家聚集在一起。否则我们全案都做时,无法让大家的合作伙伴聚在一起。
期待通过百川的思考、标准化的方式,与各个生态伙伴一起合作,真正打开大模型的天花板。
九问:套壳 ChatGPT 的产品有价值么,大模型 C 端应用,机会在哪里?
“大模型技术出现后,
原本做不好的,做好了,
原本做不了的,也做成了”
王斌(MiLM 大模型):
开玩笑地说,这个问题比较难,属于商业机密。在 ChatGPT 出来之后,很多人认为可能成为手机端颠覆性的应用。
从人的智能助手角度思考,小米的智能助手小爱同学,过去由于 AI 本身能力的限制,在很多方面并未达到很好的效果。
自从 ChatGPT 出现之后,有两个方面的改进,一个是原本做得不够好的地方,现在能做好。举个例子,小爱同学不仅仅是一个聊天工具,可以做很多事情,比如控制设备。但实际上,人的日常口语表达本身不太规范,所以传统的 AI 理解得不是很好。但大模型来了后,对理解能力的提升非常好,所以我相信大模型对智能家居的指令性应用会有很大提升。
另外,原本不能做的事情现在可以实现了。还有一些应用,例如个性化创作和个性化聊天,与以前相比确实有大幅提升。
所以,我们从两个方面着手,一个是原本做得不太好的地方,现在提升到了新的高度。第二个是原本无法实现的想法,现在可以依靠大模型实现功能。
“一切有电力的设备,
都能成为具备模型能力的 Agent。”
李大海(CPM 大模型):
未来实际上很难预测,我们只能预测下一个 Token。(笑)所以畅想未来基于大模型的应用是什么样,可以从另一个角度来看待这件事情。
在上个世纪早期,计算机并不能直接操作,那时候还需要使用打卡机,逐个打卡完成后,塞入读卡器,然后编写汇编语言,使计算机能够工作。随着时间推移,人与机器的关系逐步从完全操控机器,发展为人与机器平等互动。
在有了大模型后,未来可能会出现机器兼容人的情况,实际上机器兼容人的现象已经发生。
例如,现在很多用户连续刷抖音超过两个小时,这就是通过推荐模型,了解到每个用户画像、兴趣和痒点等等,结合在一起去兼容用户。未来机器能从各个方面更好地兼容人,这也是产品形态发展的方向。
最后,我想谈谈一个畅想。我记得知乎上有一个提问,如果动物和身边的物体都会说话,会怎么样?未来有一天,每个可用电的设备,都可能会变成一个 Agent。例如今天要蒸一条鱼,家里的电饭煲可能会根据你的喜好设定好怎么蒸鱼。还会给你一些建议,比如昨天吃的就是蒸鱼,今天要不要换花样?
我对未来的畅想是「一切都将成为 Agent」,会是一个充满想象力的世界。我们不应局限于基于 ChatGPT 目前一问一答响应式的对话形式。
彩蛋:未来一到两年内,你最希望看到的大模型是什么样的?
大模型会达到获突破 95 分位
以上的人类智力水平。
希望机器像人一样思考,
让程序员多留几根头发。
希望大模型洞察我们的世界,
改变我们的未来。
大模型的演化和人类似,
希望大模型像人类一样学习。
长期希望通用智能让人的生活变得更好,
短期最好不抱太高期望。
大模型赋能千行百业,
程序员的时代又将到来。
推荐阅读:
▶ “五分钟内为公司节省了 50 万美元,要求涨薪 3 万美元却无果,我有些后悔了!”
▶深夜炸场!OpenAI 首次开发者日:新模型发布,支持 128K 上下文,价格直降,GPT 商店要来了
▶深圳一公司奖励程序员38g黄金空格键,价值近2万元,网友:“每次敲击一下都是钱声!”